

Requested Patent: JP11203145A

Title: INSTRUCTION SCHEDULING METHOD ;

Abstracted Patent: JP11203145 ;

Publication Date: 1999-07-30 ;

Inventor(s): MORIKAWA NAOTO ;

Applicant(s): HITACHI LTD ;

Application Number: JP19980004056 19980112 ;

Priority Number(s): ;

IPC Classification: G06F9/45; G06F9/38 ;

Equivalents: ;

**ABSTRACT:**

**PROBLEM TO BE SOLVED:** To simplify scheduling which considers the effect of out-of-order execution by delaying the dispatch of an instruction whose pipeline length is long and by scheduling so that an instruction whose pipeline length is long may undergo out-of-order execution. **SOLUTION:** A processor description table 20 is read. The purport that a processor can simultaneously execute two instructions is shown in a table 21 of the table 20 and an execution time that corresponds to the length of an instruction pipeline of each instruction and use latency of subsequent instructions are described on a table 22. If execution time of the subsequent instructions is long, the use latency of the instruction is increased more than the conventional manner that reflects actual processor operations. The time from each instruction dispatch to execution start and the time from execution end till completion are suppressed to be short and an instruction string is scheduled so that a time when each instruction occupies hardware resources may be short.

(19)日本国特許庁 (JP)

## (12) 公開特許公報 (A)

(11)特許出願公開番号

特開平11-203145

(43)公開日 平成11年(1999)7月30日

(51)Int.Cl.<sup>6</sup>G 06 F 9/45  
9/38

識別記号

310

F I

G 06 F 9/44  
9/383 2 2 F  
3 1 0 X

審査請求 本請求 請求項の数1 OL (全8頁)

(21)出願番号

特開平10-4056

(22)出願日

平成10年(1998)1月12日

(71)出願人 000005108

株式会社日立製作所

東京都千代田区神田駿河台四丁目6番地

(72)発明者 森川直人

神奈川県秦野市堀山下1番地 株式会社日立製作所汎用コンピュータ事業部内

(74)代理人 弁理士 武田次郎

## (54)【発明の名称】 命令スケジューリング方法

## (57)【要約】

【課題】 命令バイブライン長が一定値でないアウトオブオーダ実行を行うバイブライン計算機に対して、ディスパッチから実行開始までの時間及び実行終了からコンプリートまでの時間を短くおさえ、各命令がハードウェアリソースを占有する時間が短くなるように命令列をスケジュールする。

【解決手段】 マシン記述テーブルにおいて、後続命令のバイブライン長が長い場合のユースレイテンシを実際の値より大き目の値に設定してスケジュールすることによりバイブライン長の長い命令のディスパッチを遅らせ、その命令のアウトオブオーダ実行を誘発し、それにより後続命令のコンプリートのタイミングを早める。

(b)は従来技術のものであり、本発明は、(a)に示すように、後続命令のバイブライン長が長いADD命令のユースレイテンシを従来技術の場合より長く設定している。

図41

(a)プロセシタ記述テーブル(本発明)

| 命令種別 | 実行時間 | 後続命令のユース | レイテンシ | LD | ST | FADD |
|------|------|----------|-------|----|----|------|
| ALU  | 2    | LD, ST   |       | 2  |    |      |
| FU   | 2    | FADD     |       | 2  |    |      |

(b)プロセシタ記述テーブル(従来技術)

| 命令種別 | 実行時間 | 後続命令のユース | レイテンシ | LD | ST | FADD |
|------|------|----------|-------|----|----|------|
| ALU  | 2    | LD, ST   |       | 2  |    |      |
| FU   | 2    | FADD     |       | 2  |    |      |

## 【特許請求の範囲】

【請求項1】 命令列のアウトオブオーダ実行を行うバイブライイン計算機の目的プログラムを生成するコンパイラにおける命令スケジューリング方法において、命令を実行する複数の演算器のバイブライイン長がそれぞれ異なる場合に、先行命令のターゲットデータをバイブライイン長の長い後続命令が利用する場合のユースレイテンシを実際より大きく設定することにより、バイブライイン長の長い命令のディスパッチを遅らせ、バイブライイン長の長い命令をアウトオブオーダ実行させるようにスケジューリングすることを特徴とする命令スケジューリング方法。

## 【発明の詳細な説明】

## 【0001】

【発明の属する技術分野】本発明は、最適化コンパイラにおける命令スケジューリング方法に係り、特に、命令の実行順序がプログラムの命令列の順に行われることを保証しないアウトオブオーダ実行を行うバイブライイン計算機上のプログラムのハードウエアリソースの利用効率を向上するために有効なコンパイラにおける命令スケジューリング方法に関する。

## 【0002】

【従来の技術】基本ブロック内の命令スケジュール方法に関する従来技術として、例えば、アイ・ビー・エム ジャーナル リサーチ・アンド・デベロップメント 38巻5号(1994年9月)557頁—(Blainey, R. J. Instruction scheduling in the TUBBY compiler, IBM Journal Research and Development 38:5 (September 1994), 577.)に記載されたリストスケジューリング法と呼ばれる方法が知られている。

【0003】前記従来技術によるリストスケジューリング方法は、基本ブロック内の命令列に対し、各命令間のデータ依存関係とハードウエアリソースの競合とによる制約の下で、目的プロセッサ上での実行時間が最短となるように命令列を並べ替えるというものである。そして、前記従来技術は、演算器数、命令毎の実行時間、ユースレイテンシ等のプロセッサ固有の情報がテーブル形式(プロセッサ記述テーブル)で与えられ、命令実行の開始時間について考慮されているが、各演算器のバイブライイン長、すなわち、命令の実行時間のばらつきによるコンフリッシュの遅れが考慮されていない。また、前記従来技術は、コンペア命令とそれをユースする分岐命令のユースレイテンシを大目に設定し、これにより、分岐予測ミスによる性能劣化を防止するようにしている。

## 【0004】

【発明が解決しようとする課題】一般に、複数の演算器を使用して複数の命令を並列実行するスーパスカラ・アウトオブオーダ実行のプロセッサは、命令列をインオーダで各演算器にディスパッチし、各演算器上でアウトオブオーダで命令を実行した後、インオーダでコンアリー

トする。そして、演算の実行に使用するバッファ、レジスタ等のハードウエアリソースは、命令列のディスパッチ時に確保され、コンアリート時に解放される。

【0005】前述した従来技術は、命令のバイブライイン長にはばらつきがある場合、先行するバイブライイン長の長い命令の実行が終了しないと、後続の命令の実行が終了していくても処理を完了することができず、このため、リソースの解放が遅れ、それが原因でリソース溢れによるストールが起こる場合があるという問題点を有している。

【0006】本発明の目的は、前記従来技術の問題点を解決し、アウトオブオーダ実行を行うバイブライイン計算機に対して命令列のディスパッチから命令の実行開始までの時間及び命令の実行終了からコンアリートまでの時間がなるべく短くなるように、すなわち、各命令がハードウエアリソースを占有する時間(ディスパッチから完了までの時間)がなるべく短くなるようにスケジュールされた命令列を得ることができる命令スケジューリング方法を提供することにある。

【0007】また、本発明の目的は、演算器数、命令毎の実行時間、ユースレイテンシ等のプロセッサに関する情報をテーブル形式(マシン記述テーブル)で入力するプロセッサに依存しないタイプのコンパイラにおいて、アウトオブオーダ実行の効果を考慮したスケジューリングを簡単に行うことができる命令スケジューリング方法を提供することにある。

## 【0008】

【課題を解決するための手段】本発明によれば前記目的は、命令列のアウトオブオーダ実行を行うバイブライイン計算機の目的プログラムを生成するコンパイラにおける命令スケジューリング方法において、命令を実行する複数の演算器のバイブライイン長がそれぞれ異なる場合に、先行命令のターゲットデータをバイブライイン長の長い後続命令がユースする場合のユースレイテンシを実際より大きく設定することにより、バイブライイン長の長い命令のディスパッチを遅らせ、バイブライイン長の長い命令をアウトオブオーダ実行させるようにスケジューリングすることにより達成される。

【0009】本発明は、前述の手段を備え、バイブライイン長の長い命令のディスパッチのタイミングを遅らせてスケジュールすることにより、バイブライイン長の長い命令のアウトオブオーダ実行を誘発し、後続命令のコンアリートのタイミングを早めることができくなる。この結果、本発明によれば、ハードウエアリソースの使用効率を高めることができる。

## 【0010】

【発明の実施の形態】以下、本発明による命令スケジューリング方法の一実施形態を図面により詳細に説明する。

【0011】図1は本発明の一実施形態による命令スケ

ジューリング方法の処理手順を説明するフローチャート、図2はコンバイラの構成とカーネル生成処理の概略を説明する図、図3はアウトオブオーダ実行のプロセッサの構成の概略と命令処理の概略とを説明する図、図4はプロセッサ記述テーブルを説明する図、図5は具体例としての原始プログラムと変換された命令列とを説明する図、図6は図5に示す命令列に対するデータ依存性グラフを示す図、図7は図5に示す命令列に対するスケジュール後の命令の実行開始想定時間を説明する図、図8は図5に示す命令列に本発明によるスケジューリング処理を施した場合の命令列の実行の様子を説明する図、図9は図5に示す命令列に実施形態によるスケジューリング処理を施し場合の命令列の実行の様子を説明する図である。図2～図4において、7は原始プログラム、8はコンバイラ本体、9は構文解析部、10はコード生成部、11は最適化処理部、12は目的プログラム、13は命令フェッチ部、14は命令ディスパッチ制御部、15～18は演算器、19は命令コンプリート制御部、20、23はプロセッサ記述テーブルである。

【0012】まず、図2を参照してコンバイラの構成と処理の流れを説明する。コンバイラ8は、構文解析部9と、本発明によるスケジューリング処理を実行する最適化処理部11を備えるコード生成部10により構成されている。そして、コンバイラ8に入力される原始プログラム7は、構文解析部9で処理をされた後、コード生成部10に入力される。このコード生成部10内の最適化処理部11は、従来から行われている最適化処理の他に本発明によるスケジューリング処理を実行するものである。構文解析されたプログラムは、最適化処理部11内で本発明によるスケジューリング処理を受けることにより、演算の処理効率を向上させることができる配列を持った目的プログラム12に変換されて出力される。

【0013】スーパスカラ・アウトオブオーダ実行のプロセッサは、その概略を図3に示すように、コンバイラ8によりスケジューリング処理を受けた目的プログラム12を読み込む命令フェッチ部13と、演算部に命令を分配する命令ディスパッチ制御部14と、命令を並列に実行する複数の演算器15～18と、全命令の実行終了を確認して、リソースの開放を行う命令コンプリート制御部19により構成される。なお、演算器15～18としては、分岐演算器、浮動点演算器、固定点演算器、ロードストア演算器等の各種の演算器が用意されている。これらの演算器のそれぞれは、演算機能に対応して異なるステージ数の複数の演算ステージを有するパイプライン方式により構成されており、与えられた命令を並列に実行する。

【0014】前述のように構成されるプロセッサにおいて、コンバイラ8により生成された目的プログラム12は、命令フェッチ部13により順次読み込まれる。命令ディスパッチ制御部14は、命令列の順次なわちインオ

ーダで、必要なハードウェアリソースを確保の上、命令に対応する演算器15～18に命令をディスパッチする。各演算器15～18は、ソースデータが得られ次第、元の命令列での順序とは無関係に、すなわちアウトオブオーダで与えられた命令を実行する。各演算器15～18での命令実行が終了すると、命令コンプリート制御部19は、命令列での順序上先行する全ての命令の実行が終了したことを確認し、インオーダでコンプリートしハードウェアリソースを解放する。

【0015】なお、図3には示していないが、命令フェッチ部13、命令ディスパッチ制御部14、複数の演算器15～18のそれぞれは、それらの入力側にキューバッファが設けられており、キューバッファ内に格納された命令を順番に取り出して処理を実行する。

【0016】本発明の一実施形態によるスケジューリング処理は、図2に示す最適化処理部11内で、図1に示すような処理手順により実行される。以下、この処理動作を具体的な例を上げて説明する。なお、以下に説明する本発明の一実施形態は、4命令同時ディスパッチ可能、ロード及びストア命令を2命令同時実行可能、かつ、浮動点演算命令を2命令同時実行可能である種のスーパスカラプロセッサを想定する。

【0017】いま、例として、図5(a)に示す命令26～命令30からなるプログラムを考える。このプログラムは、コンバイラのコード生成部10において、図5(b)に示すような命令31～命令50による命令列に置き換えられる。命令26～命令30は、それぞれ加算命令であり、4命令の命令列に置き換えられるが、命令26が置き換えられた命令列30～34の意味を簡単に説明する。

【0018】命令26は、2つのデータY1、Z1の加算命令であり、この命令は、Y1の値をメモリから読み出してレジスタf1に格納するロード命令LD1(命令31)、Z1の値をメモリから読み出してレジスタf2に格納するロード命令LD2(命令32)、レジスタf1、f2の値を加算してレジスタf3に格納する加算命令ADD3(命令33)、レジスタf3の値をメモリのX1のアドレスに格納するストア命令ST3(命令34)に置き換えられる。命令27～30についても、それぞれ同様に置き換えられる。

【0019】図5(b)に示すように置き換えられた命令列は、図2に示す最適化処理部11に送られる。そして、最適化処理部11において、図1に示すスケジューリング処理が施される。

【0020】(1)まず、図4(a)に示すプロセッサ記述テーブル20を読み込む(ステップ1)。プロセッサ記述テーブル20は、演算器の種類・数等を記述するテーブル21と、命令毎の実行時間、ユースレイテンシを記述するテーブル22とにより構成される。そして、テーブル21には、図示例の場合、プロセッサが、ロー

ド命令 LD、ストア命令 ST を実行する演算器 AU を 2 つ備え、2 命令を同時に実行可能であり、また、加算命令 ADD を実行する演算器 FU を 2 つ備え、2 命令を同時に実行可能であることが示されている。また、テーブル 2-2 には、図示例の場合、各命令の命令バイオペーランの長さに対応する実行時間（マシンサイクル数）と、後続命令のユースレイテンシとが記述されている。

【0021】そして、本発明の実施形態は、後続命令の実行時間が長い場合、その命令のユースレイテンシを、実際のプロセッサ動作を反映する従来技術の場合より増分させている。すなわち、後続する実行時間が長い命令のユースレイテンシ、例えば、LD 命令に続いて実行される F ADD 命令と、F ADD 命令に続いて再度実行される F ADD 命令とのユースレイテンシを従来技術による場合より 1 サイクルだけ増分している。

【0022】これについて具体例で説明すると、図 4 (b) に示す実際のプロセッサ動作を反映する従来技術の場合のプロセッサ記述テーブル 2-3 は、演算器の種類・数等を記述するテーブル 2-4 の内容が、図 4 (a) における本発明の実施形態のテーブル 2-1 の内容と同一であり、命令毎の実行時間、ユースレイテンシを記述するテーブル 2-5 の各命令の実行時間がテーブル 2-2 と同一であっても、後続する実行時間が長い命令のユースレイテンシは、その前の命令の実行時間に重なるように設定されている。

【0023】前述の図 4 (b) において、F ADD 命令に続いて再度 F ADD 命令が実行される場合、後続の F ADD 命令のユースレイテンシが、F ADD 命令の実行時間が 6 サイクルであるのに対して 4 サイクルに設定されているのは、前の命令の実行時間の最後の 2 サイクルに、後続の命令の実行を重複して行うことができるからである。同様に、LD 命令に続いて F ADD 命令が実行される場合、後続の F ADD 命令のユースレイテンシは、LD 命令の実行時間の 5 サイクルより 1 つ短い 4 サイクルに設定されている。

【0024】これに対して、本発明の実施形態は、LD 命令に続いて F ADD 命令が実行される場合、LD 命令の実行時間が 5 サイクルであるのに対して、その後に実行される F ADD 命令に対するユースレイテンシを、LD 命令の実行時間と同一の 5 サイクル（従来技術の場合より 1 サイクル多い）に設定し、F ADD 命令に続いて再度 F ADD 命令が実行される場合、前の命令である F ADD 命令の実行時間が 6 サイクルで、実行時間の最後のサイクル 5 で、後続の命令を開始させている。この場合にも、ユースレイテンシは、従来技術の場合より 1 サイクル多い値に設定されていることになる。

【0025】なお、前述した図 4 (a)、図 4 (b) において、ユースレイテンシに "0" が設定されているのは、命令相互間にデータの依存性がないことを示している。従って、この場合、データとリソースとが存在す

る、後続の命令を何時でも実行させることができる。

【0026】(2) 次に、図 6 に示すデータ依存性グラフを得る（ステップ 2）。図 6 に示すデータ依存性グラフは、図 5 (b) に示す命令列の 4 命令の組のそれぞれにおけるデータの依存性を示すもので、図 6 における有向エッジに付随する数字は、命令間のユースレイテンシを示している。

【0027】(3) 次に、通常のリストスケジューリングにより命令のスケジューリングを行うスケジューリング本体処理を行う。この処理によりスケジューリングされた命令列は、命令の実行終了時間やコンプリートタイミングについての考慮はなされていない（ステップ 3）。

【0028】(4) ステップ 3 でスケジューリングされた命令列は、次回スケジュール候補命令選出処理に加えられ、命令列からソースデータが計算済である命令の集合が選出され、さらに、次回スケジュール命令決定処理において、実行スロット等の割り当てを行って、次サイクルに実行させる命令を決定する（ステップ 4、5）。

【0029】(5) 全命令のスケジューリングが終了したか否かをチェックし、終了していれば処理を終了し、そうでない場合、ステップ 4 に戻って、ステップ 4 からの処理を繰り返す（ステップ 6）。

【0030】前述した処理により図 5 (b) に示す命令列をスケジューリングした結果、各命令の実行開始想定時間は、図 7 (a) に示すようになる。本発明の一実施形態の場合、ロード命令に続いて実行される加算命令のユースレイテンシを図 4 (a) により説明したように、マシンサイクル数 5 に設定しているので、図 5 (b) に示す加算命令 3-3 は、第 6 サイクル（以降であれば何時でもよい）に実行が開始されることになる。

【0031】そして、図 7 (a) に示したスケジュールの状況は、コンパイラによって作成されるもので、実際の処理装置での処理とは、ハードウェアリソースの不足、衝突などの原因により一致するものではないが、最終的に処理装置で実行される命令列及び処理装置でのディスパッチ (D)・実行 (E)・コンプリート (C) の処理は、図 8 に示すように実行される。

【0032】図 8 から判るように、本発明の実施形態におけるバイオペーランの長い F ADD 命令の実行終了待ちによる ST 命令のコンプリーションの遅れは、命令 101 について 0 サイクル、命令 103 について 1 サイクル、命令 105 について 1 サイクル、命令 107 について 2 サイクル、命令 109 について 2 サイクルの合計 6 サイクルに抑えることができる。

【0033】比較のため、図 5 (b) に示す命令列を、従来技術の場合と同様にバイオペーランの長短を考慮することなくスケジューリングした場合の各命令の実行開始想定時間は、図 7 (b) に示すようになる。図 7 (b) から判るように、ユースレイテンシの差を反映し

て、ADD命令の実行開始時間が、本発明の実施形態の場合よりも1サイクル早くなっている。そして、最終的に実際の処理装置で実行される命令列及びそのディスパッチ・実行・コンプリートの処理は、図9に示すように実行される。

【0034】図9から判るように、従来技術の場合、ADD命令の実行終了が遅いために、後続のLD命令、ST命令のコンプリートの遅れは合計9サイクルとなり、本発明と比べ3サイクル分無駄にハードウエアリソースを消費していることになる。

【0035】前述した本発明の実施形態によれば、各命令ディスパッチから実行開始までの時間及び実行終了からコンプリートまでの時間を短くおさえ、各命令がハードウエアリソースを占有する時間が短くなるように命令列をスケジュールすることができ、これにより、ハードウエアリソースの効率的な利用を可能にして、プログラム全体の処理効率を向上させることができる。

【0036】本発明の実施形態を説明するために例として用いたプログラムは、小さなものであるため、図8、図9から本発明の実施形態による効果が見にくいが、前述した本発明の実施形態によれば、プログラムが大きくなつた場合に、ハードウエアリソースの効率的な利用による効果が顕著なものとなり、プログラム全体の処理効率を向上させることができる。

#### 【0037】

【発明の効果】以上説明したように本発明によれば、従来のスケジューリング法におけるプロセッサ記述テーブルのユースレイテンシの値を操作してアウトオブオーダ実行を意図的に引き起こすことにより、命令バイブライン長が一定でない場合に予想されるコンプリートの遅延によるハードウエアリソースの浪費を防止することを可能にして、プログラム全体の処理効率を向上させることができる。

#### 【図の簡単な説明】

【図1】本発明の一実施形態による命令スケジューリング方法の処理手順を説明するフローチャートである。

【図2】コンパイラの構成とカーネル生成処理の概略を説明する図である。

【図3】アウトオブオーダ実行のプロセッサの構成の概略と命令処理の概略とを説明する図である。

【図4】プロセッサ記述テーブルを説明する図である。

【図5】具体例としての原始プログラムと変換された命令列とを説明する図である。

【図6】図5に示す命令列に対するデータ依存性グラフを示す図である。

【図7】図5に示す命令列に対するスケジュール後の命令の実行開始想定時間を説明する図である。

【図8】図5に示す命令列に本発明によるスケジューリング処理を施した場合の命令列の実行の様子を説明する図である。

【図9】図5に示す命令列に実施形態によるスケジューリング処理を施し場合の命令列の実行の様子を説明する図である。

#### 【符号の説明】

7 原始プログラム

8 コンパイラ本体

9 構文解析部

10 コード生成部

11 最適化処理部

12 目的プログラム

13 命令フェッチ部

14 命令ディスパッチ制御部

15～18 演算器

19 命令コンプリート制御部

20、23 プロセッサ記述テーブル

【図3】

【図3】

